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ТЕХТ-ІХОЕРЕХРЕХТ 5РЕАКЕВ ВЕСОСХКІТІОХ О5ІХС А 
КОКЕІСХ ІАХСОАСЕ 5ЗРЕЕСН СОКРОВА 


У статті описано експериментальне дослідження з використання іншомовного корпусу для 
текстонезалежного розпізнавання дикторів. Цей підхід дав би змогу, за відсутності мовленнєвих 
ресурсів для оцінки параметрів, застосувати великий мовленнєвий корпус з іншої мови. Як 
іншомовний корпус використано відкритий для вільного доступу мовленнєвий корпус ТНОУС-20 
5КЕ. Наведено результати досліджень. 

Ключові слова: текстонезалежне розпізнавання дикторів, і-вектори, ймовірнісний лінійний 
дискримінаційний аналіз. 
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Вступ 

Метою розпізнавання диктора є необхідність ідентифікувати, якому диктору 
належить мовленнєвий сигнал. З 90-х років домінував підхід СММ-ОВМ (Сашцязіап 
Міхішге Модеї - Юпіуегза! Васкогоцпй Модеї), але зараз провідним підходом є 
використання /-векторів (1-уесіог5). Цей підхід передбачає двоступеневе оцінювання 
параметрів. По-перше - оцінюються параметри загальної ЮВМ, у рамках СММ- 
ОВМ, параметри моделі і-вектору та параметри порівняння двох векторів, 
наприклад, на основі РІДА. По-друге - оцінюються параметри індивідуальних 
моделей дикторів. 

Загальновідомі експериментальні дослідження показали, що для створення 
загальної моделі необхідно мати великий мовленнєвий корпус, де представлено 
якомога більше різних дикторів, що говорять заданою мовою. Для створення і/- 
векторів конкретних дикторів достатньо й декількох десятків секунд їхнього 
мовлення. Автори вирішили перевірити, наскільки 4 зміниться надійність 
розпізнавання, коли для створення загальної моделі береться мовленнєвий корпус не 
тією мовою, якою спілкуються диктори, яких планується розпізнавати, а деякою 
іншою мовою. Як іншомовний корпус автори обрали ТНУУС-20 5КЕ - уйгурський 
мовленнєвий корпус, у ролі дикторів для тестування - україномовний корпус (/ККесо. 
Вибір уйгурського мовленнєвого корпусу зумовлений тим, що він єдиний відомий 
корпус, який знаходиться у вільному доступі, містить інформацію про стать диктора 
та для якого доступні скрипти, що дають змогу оцінювати параметри для 
розпізнавання дикторів на основі інструментальних засобів Каїа! (11 |. 

Метою роботи є експериментальне дослідження можливості використання 


О М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко 37 


155. 1561-5359. Штучний інтелект, 2016, Мо 4 


іншомовного корпусу для розпізнавання дикторів за мовленнєвим сигналом 
українською мовою. 

Задача розпізнавання дикторів та шляхи її розв'язання 

В останні роки найкращі результати у розпізнаванні дикторів показав підхід /-векторів (21. 

Для заданої фрази модель і-вектора припускає, що  дикторозалежний 
супервектор генерується таким чином: 

Мет Ту» (1), 

де т - супервектор, незалежний від диктора та каналу мовлення, Т - матриця з 
низьким рангом та у - низьковимірний вектор, що представляє вимовлену фразу. 
Припускаючи, що у/ має нормальний розподіл М(0, 1), рівняння (1) розглядається як 
лінійна гауссівська модель, оцінюваний параметр М має гауссівський розподіл М(т, Т 
Т"). Оцінка параметрів та виведення змінних може бути виконано стандартним 
чином. На підставі мовленнєвого сигналу |Х;; навчальної вибірки, матриця Т 
оцінюється оптимізацією такої функції ймовірності: 


ЦТБУ, ті|Ріх, Т|-У іо; Р|Х,; М)РІМ; г) 


(2), 
5 ен Р(Х,; М) Е Е 
де умовна імовірність і моделюється сумішшю нормальних законів, а 
апріорна ймовірність Р(МОТ). гауссоїд. Коли матрицю Т оцінено, обчислення 


постеріорної ймовірності для у/ у фразі Х не викликає ускладнень, оскільки Рот) 


є також кгауссоїдом. Лише вектор середніх значень (так званий /-вектор) 
обчислюється за допомогою оцінки апостеріорного максимуму (МАР - тахітит 
арозіегіогі ргобабіййу). 

За мовленнєвим сигналом, представленим  і-векторами, ймовірність 
спостереження деякого прогнозованого диктора за умов тестового сигналу 
обчислюється як косинус-відстань між і-векторами тестового сигналу та навчального 
сигналу прогнозованого диктора. 

Модель і-вектору -- це модель тотальної варіабельності (гога!-уагіабіййу). Це 
означає, що і-вектори представляють характеристики як диктора, так і акустичного 
каналу. Ймовірнісний лінійний дискримінантний аналіз (РІД) розділяє /ога!/- 
уагіабійу простір на підпростір диктора та підпростір каналу. Тому диктори можуть 
бути представлені більш точно. Ця модель може бути сформульована як: 


уяПНнОИХ, НИу че, 0) 


де У/, - це і-вектор /"-ї фрази, т - середнє значення сукупності, (/ - підпростір 
каналу, Х, - вектор каналу, Й - підпростір диктора, У - вектор диктора, е, - похибка. 
Параметри Х, та У мають стандартний гауссівський розподіл, а Є, - гауссівський 
розподіл М(0, 2). Параметри (т, С, Й, 2) оцінюються з використанням алгоритму 
максимізації математичного сподівання (ЕМ - ехресіайїоп тахітігаїоп), а виведення 
для вектору диктора у, як правило, досягається засобами МАР. 

Розпізнавання дикторів уйгурською мовою 

Експерименти з розпізнаванням дикторів уйгурською мовою були проведені в 
університеті Цінхуа |3|. Для розпізнавання був використаний корпус ТНСУС-20 5КЕ. 
Записи для нього були виконані в офісі на вуглецевий мікрофон. Частота 
дискретизації -- 16 КН. Усі диктори - студенти віку 19-28 років, походять із 30 
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районів Китаю. Дикторам давали читати різноманітну літературу загальної тематики. 
Таблиця 1. Характеристика корпусу уйгурською мовою 
Диктори Жінки Чоловіки Фрази Обсяг (годин) 
Загальна модель 200 100 100 4771 13.15 
Індивідуальні моделі 153 87 66 153 1.28 
Тестування дикторів 153 87 66 2361 6.56 


Базова система розпізнавання дикторів була побудована на технології і/- 
векторів, яка включає модель і-вектору для диктора та ряду способів порівняння 
векторів. Для опису мовленнєвого сигналу використовувалися 20-розмірні мел- 
частотні кепстральні коефіцієнти (МЕСС) та їх перша та друга похідні (усього 
розмірність - 60). Для усунення ефекту спотворень, що вносяться акустичним 
каналом, застосовувалася кепстральна нормалізація середнього та дисперсії (СМУМ). 
ОВМ містила 2048 гауссоїдів та і-вектор розмірністю 400. Навчання на диктора 
проводилося на 10, 20 та 30 секундах. 

Наведена нижче таблиця містить результати запуску скрипту, який міститься з 
базою уйгурського мовлення. 


Таблиця 2. Результати розпізнавання дикторів: ЕЕК для корпусу ТНСУС-20 


Метод Жінки Чоловіки 
озеру 10с 20с 30с 10с 20с 30с 
со5іпе 8.4 6.3 4.8 10.7 оС 7.6 
іа ТУ 5.3 Бк 6.3 5.6 4.9 
ріаа 5.3 3.9 31 6.2 5.3 4.4 


Слід зауважити, що корпус ТНУ/УС-20 має обсяг відносно невеликий для задачі 
розпізнавання дикторів - 13.15 годин. Тому було додатково проведено експерименти з 
використанням англомовного корпусу Кізйет" (219.59 годин, жіноча частина) |41, як 
доповнення до корпусу для оцінки параметрів загальної моделі. 


Таблиця 3. Результати розпізнавання дикторів: ЕЕК для корпусу ТНСУС-20 з 
додаванням корпусу КР і5пег 


Тренувальна БД Навчальна БД 10с 20с 30с 
ТНОУС-20 5КЕ ТНОУС-20 5КЕ 6.35 2.1 4.01 
ТНОСУС-20 5КЕ -к Кізйег  |ТНИУС-20 5КЕ 5.03 2:92 2.33 


Цей експеримент, з одного боку, демонструє те, що задача розпізнавання 
дикторів не має виключної прив'язаності до мови, а з іншого - підтверджує 
припущення про необхідність значних обсягів мовленнєвого сигналу для побудови 
загальної моделі. 

Розпізнавання дикторів українською мовою 

У дослідженнях ми використали україномовний багатодикторний мовленнєвий 
корпус (ККесо, який містить понад 30 000 реалізацій слів і тисячі речень близько 100 
дикторів, що мешкають у різних областях України. Реалізації слів зберігають 
частотні пропорції фонем і є фонетично збалансованими, при підборі слів також 
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враховувалися їх частотні характеристики |5|. Цей мовленнєвий корпус було 
створено завдяки гранту Президента України для обдарованої молоді, контракт Хо 32 
від 30.05.2006 р. 

З мовленнєвого корпусу взято до розгляду матеріал, записаний з голосу 63 
дикторів (40 жінок і 23 чоловіки). Цю основну вибірку було розділено на дві 
частини. Частина файлів кожного диктора була взята для навчання (10, 20 та 30 
секунд), а частина - для розпізнавання. 

Слід зауважити, що на відміну від уйгурського корпусу, в якому при тестуванні 
використовувалися злиті фрази тривалістю 10 секунд, із (/ККесо були взяті сегменти, 
що містять окремо вимовлені слова, тривалість у середньому кожного сегменту - 1.5 секунд. 


Таблиця 4. Характеристики вибірок, що використані в роботі з українською 
мовою 


Диктори | Жінки | Чоловіки | Фрази | Обсяг (годин) Мова 
Загальна модель 200 100 100 47171 13.15 Українська 
Індивідуальні моделі 63 40 23 63 0.54 Українська 
Тестування 63 40 23 630 0.35 Українська 

Таблиця 5. Результати розпізнавання дикторів: ЄЕК для корпусу (/ККесо 

Метод Жінки Чоловіки 
оно 10с 20с 30с 10с 20с 30с 
со5іпе за 28 27.8 239 32.2 31.3 
(Ма 27 23.5 24 20.9 17.4 16.5 
ріда 19 17.5 18.5 15.2 14.8 14.8 


Параметри, за яких отримано найменшу похибку, відповідають відомим 
результатам |3|. Втім, у нашому випадку, спостерігається більша похибка при 
розпізнаванні дикторів-жінок. 

Висновки 

Дане дослідження показало, що в разі недостатньої кількості мовленнєвих 
ресурсів при оцінюванні параметрів універсальної моделі для систем розпізнавання 
дикторів доцільно використовувати іншомовний мовленнєвий корпус. Зазначимо, що 
уйгурська мова належить до тюркських мов, а українська - до слов'янських. Отже, 
слушним є припущення, що при мовах більш близьких результати були би ще кращими. 
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Гог Фе ипіуегза! плодеї. 5іпсе 5исп а ЮОКкгаїпіап согрия баз пої Беєп ассезз5ібіеє Їог Фе 
ацфогз, ц5іпе а Їогеїєп Іапопаєє зреесі согриз указ соп5ідегеай. Ацірог5 5еЇесіеа Ше ореп 
апа ее 5реесп дагабазе ТНОУС-20 5КЕ а58 а Гогеієп Іапоиаєе согриз8. Ргебепіей 
ехрегітепіа) гезеагсп  5ром/5 ргоппізіпє ге5ціїз. ТПре безі гезціїв соггезропдв о 
ргобабійзйс Ппеаг дізсгітаїпапі апаЇу5і5 гесрпідце у/біїе сотрагіпє і-уесіог5 ехітасіед 
бот Фе іприс 5іспа| ул а в5реакег тодеі. Тре арріїед іесрпідце сопіїгтед 
ргозресіїуепеє5 бог іпуоіміпе, а Гогеїєп Іапемаєє Іагее зреесії согри5 мПеп по 5иїНйсіепі 
зреесі ага ауайабіе Гог Пе дезігед Іаприаєе. 
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